最近的波能转化器(WEC)配备了多个腿和发电机,以最大程度地发电。传统控制器显示出捕获复杂波形模式的局限性,并且控制器必须有效地最大化能量捕获。本文介绍了多项式增强学习控制器(MARL),该控制器的表现优于传统使用的弹簧减震器控制器。我们的最初研究表明,问题的复杂性质使训练很难融合。因此,我们提出了一种新颖的跳过训练方法,使MARL训练能够克服性能饱和,并与默认的MARL训练相比,融合到最佳控制器,从而增强发电。我们还提出了另一种新型的混合训练初始化(STHTI)方法,其中最初可以单独针对基线弹簧减震器(SD)控制器对MARL控制器的个别代理进行训练,然后在将来一次或将来培训一个代理商或全部培训加速收敛。我们使用异步参与者-Critic(A3C)算法在基线弹簧减震器控制器上实现了基线弹簧减震器控制器的能源效率的两位数提高。
translated by 谷歌翻译
A major goal of multimodal research is to improve machine understanding of images and text. Tasks include image captioning, text-to-image generation, and vision-language representation learning. So far, research has focused on the relationships between images and text. For example, captioning models attempt to understand the semantics of images which are then transformed into text. An important question is: which annotation reflects best a deep understanding of image content? Similarly, given a text, what is the best image that can present the semantics of the text? In this work, we argue that the best text or caption for a given image is the text which would generate the image which is the most similar to that image. Likewise, the best image for a given text is the image that results in the caption which is best aligned with the original text. To this end, we propose a unified framework that includes both a text-to-image generative model and an image-to-text generative model. Extensive experiments validate our approach.
translated by 谷歌翻译
Due to the lack of human resources for mental health support, there is an increasing demand for employing conversational agents for support. Recent work has demonstrated the effectiveness of dialogue models in providing emotional support. As previous studies have demonstrated that seekers' persona is an important factor for effective support, we investigate whether there are benefits to modeling such information in dialogue models for support. In this paper, our empirical analysis verifies that persona has an important impact on emotional support. Therefore, we propose a framework for dynamically inferring and modeling seekers' persona. We first train a model for inferring the seeker's persona from the conversation history. Accordingly, we propose PAL, a model that leverages persona information and, in conjunction with our strategy-based controllable generation method, provides personalized emotional support. Automatic and manual evaluations demonstrate that our proposed model, PAL, achieves state-of-the-art results, outperforming the baselines on the studied benchmark. Our code and data are publicly available at https://github.com/chengjl19/PAL.
translated by 谷歌翻译
In this paper, hypernetworks are trained to generate behaviors across a range of unseen task conditions, via a novel TD-based training objective and data from a set of near-optimal RL solutions for training tasks. This work relates to meta RL, contextual RL, and transfer learning, with a particular focus on zero-shot performance at test time, enabled by knowledge of the task parameters (also known as context). Our technical approach is based upon viewing each RL algorithm as a mapping from the MDP specifics to the near-optimal value function and policy and seek to approximate it with a hypernetwork that can generate near-optimal value functions and policies, given the parameters of the MDP. We show that, under certain conditions, this mapping can be considered as a supervised learning problem. We empirically evaluate the effectiveness of our method for zero-shot transfer to new reward and transition dynamics on a series of continuous control tasks from DeepMind Control Suite. Our method demonstrates significant improvements over baselines from multitask and meta RL approaches.
translated by 谷歌翻译
对心理健康支持的需求不断增长,强调了对话代理在全球和中国作为人类支持者的重要性。这些代理可以增加可用性并降低心理健康支持的相对成本。提供的支持可以分为两种主要类型:认知和情感支持。关于该主题的现有工作主要集中在采用认知行为疗法(CBT)原理的构造药物上。此类代理根据预定义的模板和练习来运行,以提供认知支持。但是,使用此类药物对情绪支持的研究是有限的。此外,大多数建设的代理商都以英语运作,强调了在中国进行此类研究的重要性。在这项研究中,我们分析了表情符疾病在减少精神痛苦症状方面的有效性。 Emohaa是一种对话剂,通过基于CBT的练习和指导性对话提供认知支持。它还通过使用户能够发泄所需的情绪问题来支持情感上的支持。该研究包括134名参与者,分为三组:Emohaa(基于CBT),Emohaa(Full)和控制。实验结果表明,与对照组相比,使用Emohaa的参与者在精神困扰症状方面的改善得到了更大的改善。我们还发现,添加情感支持剂对这种改善,主要是抑郁和失眠有互补的影响。根据获得的结果和参与者对平台的满意,我们得出结论,Emohaa是减少精神困扰的实用和有效工具。
translated by 谷歌翻译
抽象已被广泛研究,以提高增强学习算法的效率和概括。在本文中,我们研究了连续控制环境中的抽象。我们将MDP同态的定义扩展到连续状态空间中的连续作用。我们在抽象MDP上得出了策略梯度定理,这使我们能够利用环境的近似对称性进行策略优化。基于该定理,我们提出了一种能够使用Lax Bisimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation Mimulation。我们证明了我们方法对DeepMind Control Suite中基准任务的有效性。我们的方法利用MDP同态来表示学习的能力会导致从像素观测中学习时的性能。
translated by 谷歌翻译
最近的基于变压器的离线视频实例细分(VIS)方法取得了令人鼓舞的结果,并明显胜过在线方法。但是,它们对整个视频的依赖以及由全时空的注意力引起的巨大计算复杂性限制了它们在现实生活中的应用中,例如处理冗长的视频。在本文中,我们提出了一个基于单级变压器的高效在线VIS框架,名为InstanceFormer,该框架特别适合长期挑战性的视频。我们提出了三个新的组件来建模短期和长期依赖性和时间连贯性。首先,我们传播了对短期更改建模的先前实例的表示形式,位置和语义信息。其次,我们在解码器中提出了一种新颖的记忆交叉注意,该记忆使网络可以在某个时间窗口内研究早期实例。最后,我们采用时间对比度损失,在所有框架的实例表示中施加连贯性。记忆注意力和时间连贯性特别有益于远程依赖建模,包括诸如遮挡等挑战的情况。所提出的实例形式优于以前的在线基准方法在多个数据集上的较大边距。最重要的是,InstanceFormer超过了挑战和长数据集(例如YouTube-Vis-2021和OVIS)的离线方法。代码可从https://github.com/rajatkoner08/instanceformer获得。
translated by 谷歌翻译
社交媒体的可用性和互动性使它们成为全球各地的主要新闻来源。社交媒体的普及诱惑犯罪分子通过使用诱人文本和误导性图像制作和传播假新闻来追求不道德的意图。因此,验证社交媒体新闻和发现假期至关重要。这项工作旨在分析社交媒体中文本和图像的多模态特征,以检测假新闻。我们提出了一个假新闻透露者(FNR)方法,利用转换学习,提取上下文和语义特征和对比丢失,以确定图像和文本之间的相似性。我们在两个真正的社交媒体数据集上申请了FNR。结果表明,与以前的作品相比,该方法达到了检测假新闻的更高准确性。
translated by 谷歌翻译
合作驾驶依赖于车辆之间的沟通来造成情境感知。合作驾驶的一种应用是合作自适应巡航控制(CACC),其旨在提高公路运输安全性和能力。基于模型的通信(MBC)是一种新的范例,具有灵活的内容结构,用于广播联合车辆驱动程序预测行为模型。车辆复杂的动态和多样化的驾驶行为为建模过程增加了复杂性。高斯过程(GP)是一种完全数据驱动和非参数贝叶斯建模方法,可用作MBC的建模组件。通过为车辆产生本地GPS并将其超参数作为模型作为模型作为模型来向相邻车辆广播的知识来传播关于不确定性的知识。在该研究中,GP用于模拟每个车辆的速度轨迹,这允许车辆在通信损耗和/或低速率通信期间访问其前车辆的未来行为。此外,为了克服车辆排中的安全问题,考虑了每辆车的两种操作模式;免费下面和紧急制动。本文介绍了离散混合随机模型预测控制,该模型采用了系统模式以及GP模型捕获的不确定性。该拟议的控制设计方法找到了最佳的车速轨迹,其目的是实现具有小型车间隙的安全和有效的车辆,同时降低车辆对频繁通信的依赖性。模拟研究表明,考虑到具有低利率间歇性通信的上述通信范例的提出控制器的功效。
translated by 谷歌翻译
个人之间日常谈话的关键特征是能够向他人表达同理心,并探索实施同理心的方法是对人类对话系统的关键步骤。本主题的先前方法主要集中在检测和利用用户的情绪以产生同理反应。但是,由于同情包括感情和认知的两个方面,我们认为除了识别用户的情绪之外,还应该考虑对用户情况的认知理解。为此,我们提出了一种新的方法来实现同志响应生成,它利用致辞来绘制更多信息的信息,并使用这些附加信息来进一步增强所生成的响应中的同情表达。我们在EmpatheticDialogues上评估我们的方法,这是一个广泛使用的基准数据集,用于致力于响应生成。经验结果表明,我们的方法在自动和人类评估中表明了基线模型,可以产生更丰富的信息和致力学的反应。
translated by 谷歌翻译